<html>
 <head>
  <meta charset="utf-8"/>
  <meta content="width=device-width, initial-scale=1, maximum-scale=1, user-scalable=no" name="viewport"/>
  <title>
   JinZhihui: LDA-math-文本建模  | 数螺 | NAUT IDEA
  </title>
  <link href="http://cdn.bootcss.com/bootstrap/3.3.6/css/bootstrap-theme.min.css" rel="stylesheet"/>
  <link href="http://cdn.bootcss.com/bootstrap/3.3.6/css/bootstrap.min.css" rel="stylesheet"/>
  <style type="text/css">
   #xmain img {
                  max-width: 100%;
                  display: block;
                  margin-top: 10px;
                  margin-bottom: 10px;
                }

                #xmain p {
                    line-height:150%;
                    font-size: 16px;
                    margin-top: 20px;
                }

                #xmain h2 {
                    font-size: 24px;
                }

                #xmain h3 {
                    font-size: 20px;
                }

                #xmain h4 {
                    font-size: 18px;
                }


                .header {
	           background-color: #0099ff;
	           color: #ffffff;
	           margin-bottom: 20px;
	        }

	        .header p {
                  margin: 0px;
                  padding: 10px 0;
                  display: inline-block;  
                  vertical-align: middle;
                  font-size: 16px;
               }

               .header a {
                 color: white;
               }

              .header img {
                 height: 25px;
              }
  </style>
  <script src="http://cdn.bootcss.com/jquery/3.0.0/jquery.min.js">
  </script>
  <script src="http://cdn.mathjax.org/mathjax/latest/MathJax.js?config=TeX-AMS-MML_HTMLorMML" type="text/javascript">
   MathJax.Hub.Config({
          tex2jax: {inlineMath: [['$','$'], ['\\(','\\)']]},
          TeX: {equationNumbers: {autoNumber: "AMS"}}
        });
  </script>
  <script src="http://nautstatic-10007657.file.myqcloud.com/static/css/readability.min.js" type="text/javascript">
  </script>
  <script type="text/javascript">
   $(document).ready(function() {
                 var loc = document.location;
                 var uri = {
                  spec: "http://cos.name/2013/03/lda-math-text-modeling/",
                  host: "http://cos.name",
                  prePath: "http://cos.name",
                  scheme: "http",
                  pathBase: "http://cos.name/"
                 };
    
                 var documentClone = document.cloneNode(true);
                 var article = new Readability(uri, documentClone).parse();
     
                 document.getElementById("xmain").innerHTML = article.content;
                });
  </script>
  <!-- 1466441856: Accept with keywords: (title(0.333333333333):门户网站,建模,统计学,服务平台,中国,文本, topn(0.6):上帝,概率,概率分布,游戏规则,统计学,R语言,分布,数据挖掘,语料,后验,游戏,产生,假设,模型,文档,计算,文章,参数,数据,骰子,语料库,建模,计数,先验,主题,估计值,评论,序列,过程,文本).-->
 </head>
 <body class="single single-post postid-7381 single-format-standard sidebar" onload="">
  <div class="header">
   <div class="container">
    <div class="row">
     <div class="col-xs-6 col-sm-6 text-left">
      <a href="/databee">
       <img src="http://nautidea-10007657.cos.myqcloud.com/logo_white.png"/>
      </a>
      <a href="/databee">
       <p>
        数螺
       </p>
      </a>
     </div>
     <div class="hidden-xs col-sm-6 text-right">
      <p>
       致力于数据科学的推广和知识传播
      </p>
     </div>
    </div>
   </div>
  </div>
  <div class="container text-center">
   <h1>
    JinZhihui: LDA-math-文本建模
   </h1>
  </div>
  <div class="container" id="xmain">
   <div class="hfeed site" id="page">
    <header class="site-header" id="masthead" role="banner">
     <div id="cos-logo">
      <a href="http://cos.name/">
       <img src="http://cos.name/wp-content/themes/COS-kermesinus/images/headers/cos-logo.png"/>
      </a>
     </div>
     <div class="navbar" id="navbar">
      <nav class="navigation main-navigation" id="site-navigation" role="navigation">
       <h3 class="menu-toggle">
        菜单
       </h3>
       <a class="screen-reader-text skip-link" href="http://cos.name/2013/03/lda-math-text-modeling/#content" title="跳至内容">
        跳至内容
       </a>
       <div class="menu-%e6%88%91%e7%9a%84%e8%8f%9c%e5%8d%95-container">
        <ul class="nav-menu" id="menu-%e6%88%91%e7%9a%84%e8%8f%9c%e5%8d%95">
         <li class="menu-item menu-item-type-custom menu-item-object-custom menu-item-home menu-item-4746" id="menu-item-4746">
          <a href="http://cos.name">
           主页
          </a>
         </li>
         <li class="menu-item menu-item-type-custom menu-item-object-custom menu-item-has-children menu-item-8120" id="menu-item-8120">
          <a href="http://cos.name/cn">
           论坛
          </a>
          <ul class="sub-menu">
           <li class="menu-item menu-item-type-custom menu-item-object-custom menu-item-8124" id="menu-item-8124">
            <a href="http://cos.name/cn/wp-login.php?action=register">
             论坛注册
            </a>
           </li>
           <li class="menu-item menu-item-type-custom menu-item-object-custom menu-item-8125" id="menu-item-8125">
            <a href="http://cos.name/cn/wp-login.php">
             论坛登录
            </a>
           </li>
          </ul>
         </li>
         <li class="menu-item menu-item-type-post_type menu-item-object-page menu-item-8110" id="menu-item-8110">
          <a href="http://cos.name/books/">
           图书资料
          </a>
         </li>
         <li class="menu-item menu-item-type-custom menu-item-object-custom menu-item-8112" id="menu-item-8112">
          <a href="http://cos.name/videos">
           视频教程
          </a>
         </li>
         <li class="menu-item menu-item-type-custom menu-item-object-custom menu-item-8333" id="menu-item-8333">
          <a href="http://cos.name/salon/">
           统计沙龙
          </a>
         </li>
         <li class="menu-item menu-item-type-post_type menu-item-object-page menu-item-8111" id="menu-item-8111">
          <a href="http://cos.name/chinar/">
           R语言会议
          </a>
         </li>
         <li class="menu-item menu-item-type-post_type menu-item-object-page menu-item-8109" id="menu-item-8109">
          <a href="http://cos.name/training/">
           讲座与培训
          </a>
         </li>
         <li class="menu-item menu-item-type-custom menu-item-object-custom menu-item-8115" id="menu-item-8115">
          <a href="http://cos.name/cn/forum/comprehensive/job/">
           招聘信息
          </a>
         </li>
         <li class="menu-item menu-item-type-custom menu-item-object-custom menu-item-has-children menu-item-4780" id="menu-item-4780">
          <a href="http://cos.name/about">
           关于我们
          </a>
          <ul class="sub-menu">
           <li class="menu-item menu-item-type-custom menu-item-object-custom menu-item-8113" id="menu-item-8113">
            <a href="http://cos.name/2008/11/how-to-work-with-cos/">
             加入我们
            </a>
           </li>
           <li class="menu-item menu-item-type-custom menu-item-object-custom menu-item-8119" id="menu-item-8119">
            <a href="http://cos.name/donate/">
             赞助我们
            </a>
           </li>
           <li class="menu-item menu-item-type-custom menu-item-object-custom menu-item-8114" id="menu-item-8114">
            <a href="http://cos.name/cn/forum/26">
             项目合作
            </a>
           </li>
          </ul>
         </li>
        </ul>
       </div>
       <form action="http://cos.name/" class="search-form" method="get" role="search">
        <label>
         <span class="screen-reader-text">
          搜索：
         </span>
        </label>
       </form>
      </nav>
      <!-- #site-navigation -->
     </div>
     <!-- #navbar -->
    </header>
    <!-- #masthead -->
    <div class="site-main" id="main">
     <div class="content-area" id="primary">
      <div class="site-content" id="content" role="main">
       <article class="post-7381 post type-post status-publish format-standard hentry category-data category-dmml tag-plsa tag-unigram-model tag-656 tag-654 tag-65" id="post-7381">
        <header class="entry-header">
         <h1 class="entry-title">
          LDA-math-文本建模
         </h1>
         <div class="entry-meta">
          <span class="date">
           <a href="http://cos.name/2013/03/lda-math-text-modeling/" rel="bookmark" title="链向LDA-math-文本建模的固定链接">
            <time class="entry-date" datetime="2013-03-07T18:23:27+00:00">
             2013/03/07
            </time>
           </a>
          </span>
          <span class="categories-links">
           <a href="http://cos.name/category/data/" rel="category tag">
            数据分析
           </a>
           、
           <a href="http://cos.name/category/data/dmml/" rel="category tag">
            数据挖掘与机器学习
           </a>
          </span>
          <span class="tags-links">
           <a href="http://cos.name/tag/plsa/" rel="tag">
            PLSA
           </a>
           、
           <a href="http://cos.name/tag/unigram-model/" rel="tag">
            Unigram Model
           </a>
           、
           <a href="http://cos.name/tag/%e4%b8%bb%e9%a2%98%e6%a8%a1%e5%9e%8b/" rel="tag">
            主题模型
           </a>
           、
           <a href="http://cos.name/tag/%e6%96%87%e6%9c%ac%e5%bb%ba%e6%a8%a1/" rel="tag">
            文本建模
           </a>
           、
           <a href="http://cos.name/tag/%e8%b4%9d%e5%8f%b6%e6%96%af/" rel="tag">
            贝叶斯
           </a>
          </span>
          <span class="author vcard">
           <a class="url fn n" href="http://cos.name/author/rickjin/" rel="author" title="查看所有由rickjin发布的文章">
            rickjin
           </a>
          </span>
         </div>
         <!-- .entry-meta -->
        </header>
        <!-- .entry-header -->
        <div class="entry-content">
         <p>
          <strong>
           4. 文本建模
          </strong>
         </p>
         <p>
          我们日常生活中总是产生大量的文本，如果每一个文本存储为一篇文档，那每篇文档从人的观察来说就是有序的词的序列 $d=(w_1, w_2, \cdots, w_n)$。
         </p>
         <p style="text-align: center;">
          <a href="http://www.52nlp.cn/lda-math-%e6%96%87%e6%9c%ac%e5%bb%ba%e6%a8%a1/corpus" rel="attachment wp-att-5284">
           <img src="http://www.52nlp.cn/wp-content/uploads/2013/02/corpus.jpg"/>
          </a>
          <br/>
          <strong>
           包含$M$ 篇文档的语料库
          </strong>
         </p>
         <p>
          统计文本建模的目的就是追问这些观察到语料库中的的词序列是如何生成的。统计学被人们描述为猜测上帝的游戏，人类产生的所有的语料文本我们都可以看成是一个伟大的上帝在天堂中抛掷骰子生成的，我们观察到的只是上帝玩这个游戏的结果 —— 词序列构成的语料，而上帝玩这个游戏的过程对我们是个黑盒子。所以在统计文本建模中，我们希望猜测出上帝是如何玩这个游戏的，具体一点，最核心的两个问题是
         </p>
         <ul>
          <li>
           上帝都有什么样的骰子；
          </li>
          <li>
           上帝是如何抛掷这些骰子的；
          </li>
         </ul>
         <p>
          第一个问题就是表示模型中都有哪些参数，骰子的每一个面的概率都对应于模型中的参数；第二个问题就表示游戏规则是什么，上帝可能有各种不同类型的骰子，上帝可以按照一定的规则抛掷这些骰子从而产生词序列。
         </p>
         <p style="text-align: center;">
          <a href="http://www.52nlp.cn/lda-math-%e6%96%87%e6%9c%ac%e5%bb%ba%e6%a8%a1/dice-all" rel="attachment wp-att-5285">
           <img src="http://www.52nlp.cn/wp-content/uploads/2013/02/dice-all.jpg"/>
          </a>
          <a href="http://www.52nlp.cn/lda-math-%e6%96%87%e6%9c%ac%e5%bb%ba%e6%a8%a1/god-throw-dice" rel="attachment wp-att-5280">
           <img src="http://www.52nlp.cn/wp-content/uploads/2013/02/god-throw-dice.jpg"/>
          </a>
         </p>
         <p style="text-align: center;">
          <strong>
           上帝掷骰子
          </strong>
         </p>
         <p>
          <strong>
           4.1 Unigram Model
          </strong>
         </p>
         <p>
          假设我们的词典中一共有 $V$ 个词 $v_1, v_2, \cdots v_V$，那么最简单的 Unigram Model 就是认为上帝是按照如下的游戏规则产生文本的。
         </p>
         <p>
          <a href="http://www.52nlp.cn/lda-math-%e6%96%87%e6%9c%ac%e5%bb%ba%e6%a8%a1/game-unigram-model" rel="attachment wp-att-5276">
           <img src="http://www.52nlp.cn/wp-content/uploads/2013/02/game-unigram-model.jpg"/>
          </a>
         </p>
         <p>
          上帝的这个唯一的骰子各个面的概率记为 $\overrightarrow{p} = (p_1, p_2, \cdots, p_V)$, 所以每次投掷骰子类似于一个抛钢镚时候的贝努利实验， 记为 $w\sim Mult(w|\overrightarrow{p}) $。
         </p>
         <p style="text-align: center;">
          <strong>
           <a href="http://www.52nlp.cn/lda-math-%e6%96%87%e6%9c%ac%e5%bb%ba%e6%a8%a1/unigram-model" rel="attachment wp-att-5277">
            <img src="http://www.52nlp.cn/wp-content/uploads/2013/02/unigram-model.jpg"/>
           </a>
           上帝投掷$V$ 个面的骰子
          </strong>
         </p>
         <p>
          <span id="more-7381">
          </span>
          对于一篇文档$d=\overrightarrow{w}=(w_1, w_2, \cdots, w_n)$, 该文档被生成的概率就是
          <br/>
          $$ p(\overrightarrow{w}) = p(w_1, w_2, \cdots, w_n) = p(w_1)p(w_2) \cdots p(w_n) $$
          <br/>
          而文档和文档之间我们认为是独立的， 所以如果语料中有多篇文档 $\mathcal{W}=(\overrightarrow{w_1}, \overrightarrow{w_2},…,\overrightarrow{w_m})$,则该语料的概率是
          <br/>
          $$p(\mathcal{W})= p(\overrightarrow{w_1})p(\overrightarrow{w_2})
          <br/>
          \cdots p(\overrightarrow{w_m}) $$
         </p>
         <p>
          在 Unigram Model 中， 我们假设了文档之间是独立可交换的，而文档中的词也是独立可交换的，所以一篇文档相当于一个袋子，里面装了一些词，而词的顺序信息就无关紧要了，这样的模型也称为词袋模型(Bag-of-words)。
         </p>
         <p>
          假设语料中总的词频是$N$, 在所有的 $N$ 个词中,如果我们关注每个词 $v_i$ 的发生次数 $n_i$，那么 $\overrightarrow{n}=(n_1, n_2,\cdots, n_V)$ 正好是一个多项分布
          <br/>
          $$ p(\overrightarrow{n}) = Mult(\overrightarrow{n}|\overrightarrow{p}, N)
          <br/>
          = \binom{N}{\overrightarrow{n}} \prod_{k=1}^V p_k^{n_k} $$
          <br/>
          此时， 语料的概率是
          <br/>
          \begin{align*}
          <br/>
          p(\mathcal{W})= p(\overrightarrow{w_1})p(\overrightarrow{w_2}) \cdots p(\overrightarrow{w_m})
          <br/>
          = \prod_{k=1}^V p_k^{n_k}
          <br/>
          \end{align*}
         </p>
         <p>
          当然，我们很重要的一个任务就是估计模型中的参数$\overrightarrow{p}$，也就是问上帝拥有的这个骰子的各个面的概率是多大，按照统计学家中频率派的观点，使用最大似然估计最大化$P(\mathcal{W})$，于是参数$p_i$的估计值就是
          <br/>
          $$ \hat{p_i} = \frac{n_i}{N} .$$
         </p>
         <p>
          对于以上模型，贝叶斯统计学派的统计学家会有不同意见，他们会很挑剔的批评只假设上帝拥有唯一一个固定的骰子是不合理的。在贝叶斯学派看来，一切参数都是随机变量，以上模型中的骰子 $\overrightarrow{p}$不是唯一固定的，它也是一个随机变量。所以按照贝叶斯学派的观点，上帝是按照以下的过程在玩游戏的
         </p>
         <p>
          <a href="http://www.52nlp.cn/lda-math-%e6%96%87%e6%9c%ac%e5%bb%ba%e6%a8%a1/game-bayesian-unigram-model" rel="attachment wp-att-5274">
           <img src="http://www.52nlp.cn/wp-content/uploads/2013/02/game-bayesian-unigram-model.jpg"/>
          </a>
          <br/>
          上帝的这个坛子里面，骰子可以是无穷多个，有些类型的骰子数量多，有些类型的骰子少，所以从概率分布的角度看，坛子里面的骰子$\overrightarrow{p}$ 服从一个概率分布 $p(\overrightarrow{p})$，这个分布称为参数$\overrightarrow{p}$ 的先验分布。
         </p>
         <p style="text-align: center;">
          <strong>
           <a href="http://www.52nlp.cn/lda-math-%e6%96%87%e6%9c%ac%e5%bb%ba%e6%a8%a1/bayesian-unigram-model" rel="attachment wp-att-5278">
            <img src="http://www.52nlp.cn/wp-content/uploads/2013/02/bayesian-unigram-model.jpg"/>
           </a>
           贝叶斯观点下的 Unigram Model
          </strong>
         </p>
         <p>
          以上贝叶斯学派的游戏规则的假设之下，语料$\mathcal{W}$产生的概率如何计算呢？由于我们并不知道上帝到底用了哪个骰子$\overrightarrow{p}$,所以每个骰子都是可能被使用的，只是使用的概率由先验分布$p(\overrightarrow{p})$来决定。对每一个具体的骰子$\overrightarrow{p}$,由该骰子产生数据的概率是 $p(\mathcal{W}|\overrightarrow{p})$, 所以最终数据产生的概率就是对每一个骰子$\overrightarrow{p}$上产生的数据概率进行积分累加求和
          <br/>
          $$ p(\mathcal{W}) = \int p(\mathcal{W}|\overrightarrow{p}) p(\overrightarrow{p})d\overrightarrow{p} $$
          <br/>
          在贝叶斯分析的框架下，此处先验分布$p(\overrightarrow{p})$ 就可以有很多种选择了，注意到
          <br/>
          $$ p(\overrightarrow{n}) = Mult(\overrightarrow{n}|\overrightarrow{p}, N) $$
          <br/>
          实际上是在计算一个多项分布的概率，所以对先验分布的一个比较好的选择就是多项分布对应的共轭分布，即 Dirichlet 分布
          <br/>
          $$ Dir(\overrightarrow{p}|\overrightarrow{\alpha})=
          <br/>
          \frac{1}{\Delta(\overrightarrow{\alpha})} \prod_{k=1}^V p_k^{\alpha_k -1}，
          <br/>
          \quad \overrightarrow{\alpha}=(\alpha_1, \cdots, \alpha_V) $$
          <br/>
          此处，$\Delta(\overrightarrow{\alpha})$ 就是归一化因子$Dir(\overrightarrow{\alpha})$，即
          <br/>
          $$ \Delta(\overrightarrow{\alpha}) =
          <br/>
          \int \prod_{k=1}^V p_k^{\alpha_k -1} d\overrightarrow{p} . $$
         </p>
         <p style="text-align: center;">
          <a href="http://www.52nlp.cn/lda-math-%e6%96%87%e6%9c%ac%e5%bb%ba%e6%a8%a1/dirichlet-multinomial-unigram" rel="attachment wp-att-5279">
           <img src="http://www.52nlp.cn/wp-content/uploads/2013/02/dirichlet-multinomial-unigram.jpg"/>
          </a>
         </p>
         <p style="text-align: center;">
          <strong>
           Dirichlet 先验下的 Unigram Model
          </strong>
         </p>
         <p style="text-align: center;">
          <a href="http://www.52nlp.cn/lda-math-%e6%96%87%e6%9c%ac%e5%bb%ba%e6%a8%a1/graph-model-unigram" rel="attachment wp-att-5281">
           <img src="http://www.52nlp.cn/wp-content/uploads/2013/02/graph-model-unigram.jpg"/>
          </a>
         </p>
         <p style="text-align: center;">
          <strong>
           Unigram Model的概率图模型
          </strong>
         </p>
         <p style="text-align: left;">
          回顾前一个小节介绍的 Drichlet 分布的一些知识，其中很重要的一点就是
         </p>
         <p style="text-align: center;">
          <strong>
           Dirichlet 先验 + 多项分布的数据
          </strong>
          <strong>
           $\rightarrow$ 后验分布为 Dirichlet 分布
          </strong>
         </p>
         <p style="text-align: left;">
          $$ Dir(\overrightarrow{p}|\overrightarrow{\alpha}) + MultCount(\overrightarrow{n})= Dir(\overrightarrow{p}|\overrightarrow{\alpha}+\overrightarrow{n}) $$
         </p>
         <p>
          于是，在给定了参数 $\overrightarrow{p}$的先验分布 $Dir(\overrightarrow{p}|\overrightarrow{\alpha})$ 的时候，各个词出现频次的数据 $\overrightarrow{n} \sim Mult(\overrightarrow{n}|\overrightarrow{p},N)$ 为多项分布, 所以无需计算，我们就可以推出后验分布是
          <br/>
          \begin{equation}
          <br/>
          p(\overrightarrow{p}|\mathcal{W},\overrightarrow{\alpha})
          <br/>
          = Dir(\overrightarrow{p}|\overrightarrow{n}+ \overrightarrow{\alpha})
          <br/>
          = \frac{1}{\Delta(\overrightarrow{n}+\overrightarrow{\alpha})}
          <br/>
          \prod_{k=1}^V p_k^{n_k + \alpha_k -1} d\overrightarrow{p}
          <br/>
          \end{equation}
         </p>
         <p>
          在贝叶斯的框架下，参数$\overrightarrow{p}$如何估计呢？由于我们已经有了参数的后验分布，所以合理的方式是使用后验分布的极大值点，或者是参数在后验分布下的平均值。在该文档中，我们取平均值作为参数的估计值。使用上个小节中的结论，由于 $\overrightarrow{p}$ 的后验分布为 $Dir(\overrightarrow{p}|\overrightarrow{n} + \overrightarrow{\alpha})$，于是
          <br/>
          $$
          <br/>
          E(\overrightarrow{p}) = \Bigl(\frac{n_1 + \alpha_1}{\sum_{i=1}^V(n_i + \alpha_i)},
          <br/>
          \frac{n_2 + \alpha_2}{\sum_{i=1}^V(n_i + \alpha_i)}, \cdots,
          <br/>
          \frac{n_V + \alpha_V}{\sum_{i=1}^V(n_i + \alpha_i)} \Bigr)
          <br/>
          $$
          <br/>
          也就是说对每一个 $p_i$, 我们用下式做参数估计
          <br/>
          \begin{equation}
          <br/>
          \label{dirichlet-parameter-estimation}
          <br/>
          \hat{p_i} = \frac{n_i + \alpha_i}{\sum_{i=1}^V(n_i + \alpha_i)}
          <br/>
          \end{equation}
          <br/>
          考虑到 $\alpha_i$ 在 Dirichlet 分布中的物理意义是事件的先验的伪计数，这个估计式子的含义是很直观的：每个参数的估计值是其对应事件的先验的伪计数和数据中的计数的和在整体计数中的比例。
         </p>
         <p>
          进一步，我们可以计算出文本语料的产生概率为
          <br/>
          \begin{align}
          <br/>
          p(\mathcal{W}|\overrightarrow{\alpha}) &amp; = \int p(\mathcal{W}|\overrightarrow{p}) p(\overrightarrow{p}|\overrightarrow{\alpha})d\overrightarrow{p} \notag \\
          <br/>
          &amp; = \int \prod_{k=1}^V p_k^{n_k} Dir(\overrightarrow{p}|\overrightarrow{\alpha}) d\overrightarrow{p} \notag \\
          <br/>
          &amp; = \int \prod_{k=1}^V p_k^{n_k} \frac{1}{\Delta(\overrightarrow{\alpha})}
          <br/>
          \prod_{k=1}^V p_k^{\alpha_k -1} d\overrightarrow{p} \notag \\
          <br/>
          &amp; = \frac{1}{\Delta(\overrightarrow{\alpha})}
          <br/>
          \int \prod_{k=1}^V p_k^{n_k + \alpha_k -1} d\overrightarrow{p} \notag \\
          <br/>
          &amp; = \frac{\Delta(\overrightarrow{n}+\overrightarrow{\alpha})}{\Delta(\overrightarrow{\alpha})}
          <br/>
          \label{likelihood-dir-mult}
          <br/>
          \end{align}
         </p>
         <p>
          <strong>
           4.2 Topic Model 和 PLSA
          </strong>
         </p>
         <p>
          以上 Unigram Model 是一个很简单的模型，模型中的假设看起来过于简单，和人类写文章产生每一个词的过程差距比较大，有没有更好的模型呢？
         </p>
         <p>
          我们可以看看日常生活中人是如何构思文章的。如果我们要写一篇文章，往往是先确定要写哪几个主题。譬如构思一篇自然语言处理相关的文章，可能 40\% 会谈论语言学、30\% 谈论概率统计、20\% 谈论计算机、还有10\%谈论其它的主题：
         </p>
         <ul>
          <li>
           说到语言学，我们容易想到的词包括：语法、句子、乔姆斯基、句法分析、主语…；
          </li>
          <li>
           谈论概率统计，我们容易想到以下一些词: 概率、模型、均值、方差、证明、独立、马尔科夫链、…；
          </li>
          <li>
           谈论计算机，我们容易想到的词是： 内存、硬盘、编程、二进制、对象、算法、复杂度…；
          </li>
         </ul>
         <p>
          我们之所以能马上想到这些词，是因为这些词在对应的主题下出现的概率很高。我们可以很自然的看到，一篇文章通常是由多个主题构成的、而每一个主题大概可以用与该主题相关的频率最高的一些词来描述。
         </p>
         <p style="text-align: left;">
          以上这种直观的想法由Hoffman 于 1999 年给出的PLSA(Probabilistic Latent Semantic Analysis) 模型中首先进行了明确的数学化。Hoffman 认为一篇文档(Document) 可以由多个主题(Topic) 混合而成， 而每个Topic 都是词汇上的概率分布，文章中的每个词都是由一个固定的 Topic 生成的。下图是英语中几个Topic 的例子。
         </p>
         <p style="text-align: center;">
          <strong>
           <a href="http://www.52nlp.cn/lda-math-%e6%96%87%e6%9c%ac%e5%bb%ba%e6%a8%a1/topic-examples" rel="attachment wp-att-5283">
            <img src="http://www.52nlp.cn/wp-content/uploads/2013/02/topic-examples.jpg"/>
           </a>
           Topic 就是Vocab 上的概率分布
          </strong>
         </p>
         <p>
          所有人类思考和写文章的行为都可以认为是上帝的行为，我们继续回到上帝的假设中，那么在 PLSA 模型中，Hoffman 认为上帝是按照如下的游戏规则来生成文本的。
         </p>
         <p>
          <a href="http://www.52nlp.cn/lda-math-%e6%96%87%e6%9c%ac%e5%bb%ba%e6%a8%a1/game-plsa" rel="attachment wp-att-5275">
           <img src="http://www.52nlp.cn/wp-content/uploads/2013/02/game-plsa.jpg"/>
          </a>
         </p>
         <p>
          以上PLSA 模型的文档生成的过程可以图形化的表示为
         </p>
         <p style="text-align: center;">
          <strong>
           <a href="http://www.52nlp.cn/lda-math-%e6%96%87%e6%9c%ac%e5%bb%ba%e6%a8%a1/plsa-doc-topic-word" rel="attachment wp-att-5282">
            <img src="http://www.52nlp.cn/wp-content/uploads/2013/02/plsa-doc-topic-word.jpg"/>
           </a>
           PLSA 模型的文档生成过程
          </strong>
         </p>
         <p>
          我们可以发现在以上的游戏规则下，文档和文档之间是独立可交换的，同一个文档内的词也是独立可交换的，还是一个 bag-of-words 模型。游戏中的$K$ 个topic-word 骰子，我们可以记为 $\overrightarrow{\varphi}_1, \cdots, \overrightarrow{\varphi}_K$, 对于包含$M$篇文档的语料 $C=(d_1, d_2, \cdots, d_M)$ 中的每篇文档$d_m$，都会有一个特定的doc-topic骰子$\overrightarrow{\theta}_m$，所有对应的骰子记为 $\overrightarrow{\theta}_1, \cdots, \overrightarrow{\theta}_M$。为了方便，我们假设每个词$w$ 都是一个编号，对应到topic-word 骰子的面。于是在 PLSA 这个模型中，第$m$篇文档 $d_m$ 中的每个词的生成概率为
          <br/>
          $$ p(w|d_m) = \sum_{z=1}^K p(w|z)p(z|d_m) = \sum_{z=1}^K \varphi_{zw} \theta_{mz}$$
          <br/>
          所以整篇文档的生成概率为
          <br/>
          $$ p(\overrightarrow{w}|d_m) = \prod_{i=1}^n \sum_{z=1}^K p(w_i|z)p(z|d_m) =
          <br/>
          \prod_{i=1}^n \sum_{z=1}^K \varphi_{zw_i} \theta_{dz} $$
          <br/>
          由于文档之间相互独立，我们也容易写出整个语料的生成概率。求解PLSA 这个 Topic Model 的过程汇总，模型参数并容易求解，可以使用著名的 EM 算法进行求得局部最优解，由于该模型的求解并不是本文的介绍要点，有兴趣的同学参考 Hoffman 的原始论文，此处略去不讲。
         </p>
         <div class="wumii-hook">
          <br/>
          <br/>
         </div>
        </div>
        <!-- .entry-content -->
        <footer class="entry-meta">
        </footer>
        <!-- .entry-meta -->
       </article>
       <!-- #post -->
       <nav class="navigation post-navigation" role="navigation">
        <h1 class="screen-reader-text">
         文章导航
        </h1>
        <div class="nav-links">
         <a href="http://cos.name/2013/03/jss-paper-sci/" rel="prev">
          <span class="meta-nav">
           ←
          </span>
          一起来投SCI吧：谈谈我的第一篇JSS论文
         </a>
         <a href="http://cos.name/2013/03/lda-math-lda-text-modeling/" rel="next">
          LDA-math-LDA 文本建模
          <span class="meta-nav">
           →
          </span>
         </a>
        </div>
        <!-- .nav-links -->
       </nav>
       <!-- .navigation -->
       <div class="comments-area" id="comments">
        <h2 class="comments-title">
         《
         <span>
          LDA-math-文本建模
         </span>
         》有5个想法
        </h2>
        <ol class="comment-list">
         <li class="comment even thread-even depth-1" id="comment-4618">
          <article class="comment-body" id="div-comment-4618">
           <footer class="comment-meta">
            <div class="comment-author vcard">
             <img src="http://sdn.geekzu.org/avatar/0198142855fa7d9d20fcc95f40c7381e?s=74&amp;d=monsterid&amp;r=g"/>
             <b class="fn">
              Jarod
             </b>
             <span class="says">
              说道：
             </span>
            </div>
            <!-- .comment-author -->
            <div class="comment-metadata">
             <a href="http://cos.name/2013/03/lda-math-text-modeling/#comment-4618">
              <time datetime="2013-08-08T09:36:07+00:00">
               2013/08/08 09:36
              </time>
             </a>
            </div>
            <!-- .comment-metadata -->
           </footer>
           <!-- .comment-meta -->
           <div class="comment-content">
            <p>
             有一处一直没有想通，采用dirichlet作为先验分布是出于数学上的方便性考虑，如何就能认为上帝手中的骰子确实是按此分布的呢？ 虽有概率推断，但如果筛子本质的分布不是dirichlet，如何也估计不出合理的参数呀。如同利用单高斯分布对多项高斯分布估计一样。望楼主能细说下背后的原理理解。
            </p>
           </div>
           <!-- .comment-content -->
           <div class="reply">
            <a aria-label="回复给Jarod" class="comment-reply-link" href="http://cos.name/2013/03/lda-math-text-modeling/?replytocom=4618#respond" onclick='return addComment.moveForm( "div-comment-4618", "4618", "respond", "7381" )' rel="nofollow">
             回复
            </a>
           </div>
          </article>
          <!-- .comment-body -->
         </li>
         <!-- #comment-## -->
         <li class="comment odd alt thread-odd thread-alt depth-1" id="comment-5175">
          <article class="comment-body" id="div-comment-5175">
           <footer class="comment-meta">
            <div class="comment-author vcard">
             <img src="http://sdn.geekzu.org/avatar/?s=74&amp;d=monsterid&amp;r=g"/>
             <b class="fn">
              <a class="url" href="http://weibo.com/1765475181" rel="external nofollow">
               居昱Julia
              </a>
             </b>
             <span class="says">
              说道：
             </span>
            </div>
            <!-- .comment-author -->
            <div class="comment-metadata">
             <a href="http://cos.name/2013/03/lda-math-text-modeling/#comment-5175">
              <time datetime="2013-12-13T15:31:56+00:00">
               2013/12/13 15:31
              </time>
             </a>
            </div>
            <!-- .comment-metadata -->
           </footer>
           <!-- .comment-meta -->
           <div class="comment-content">
            <p>
             Jarod，我看到还有一篇写LDA math的不错，但是我数学不太好，没全部看懂。。你看看有没有你想要的答案~~~（- -怎么感觉在发广告一样。。飘走。。）
             <a href="http://www.52nlp.cn/lda-math-%E8%AE%A4%E8%AF%86betadirichlet%E5%88%86%E5%B8%831" rel="nofollow">
              http://www.52nlp.cn/lda-math-%E8%AE%A4%E8%AF%86betadirichlet%E5%88%86%E5%B8%831
             </a>
            </p>
           </div>
           <!-- .comment-content -->
           <div class="reply">
            <a aria-label="回复给居昱Julia" class="comment-reply-link" href="http://cos.name/2013/03/lda-math-text-modeling/?replytocom=5175#respond" onclick='return addComment.moveForm( "div-comment-5175", "5175", "respond", "7381" )' rel="nofollow">
             回复
            </a>
           </div>
          </article>
          <!-- .comment-body -->
         </li>
         <!-- #comment-## -->
         <li class="comment even thread-even depth-1" id="comment-5285">
          <article class="comment-body" id="div-comment-5285">
           <footer class="comment-meta">
            <div class="comment-author vcard">
             <img src="http://sdn.geekzu.org/avatar/?s=74&amp;d=monsterid&amp;r=g"/>
             <b class="fn">
              <a class="url" href="http://weibo.com/loveanalytics" rel="external nofollow">
               向数据进军
              </a>
             </b>
             <span class="says">
              说道：
             </span>
            </div>
            <!-- .comment-author -->
            <div class="comment-metadata">
             <a href="http://cos.name/2013/03/lda-math-text-modeling/#comment-5285">
              <time datetime="2014-01-22T14:38:45+00:00">
               2014/01/22 14:38
              </time>
             </a>
            </div>
            <!-- .comment-metadata -->
           </footer>
           <!-- .comment-meta -->
           <div class="comment-content">
            <p>
             写的很好！佩服
            </p>
           </div>
           <!-- .comment-content -->
           <div class="reply">
            <a aria-label="回复给向数据进军" class="comment-reply-link" href="http://cos.name/2013/03/lda-math-text-modeling/?replytocom=5285#respond" onclick='return addComment.moveForm( "div-comment-5285", "5285", "respond", "7381" )' rel="nofollow">
             回复
            </a>
           </div>
          </article>
          <!-- .comment-body -->
         </li>
         <!-- #comment-## -->
         <li class="comment odd alt thread-odd thread-alt depth-1" id="comment-5736">
          <article class="comment-body" id="div-comment-5736">
           <footer class="comment-meta">
            <div class="comment-author vcard">
             <img src="http://sdn.geekzu.org/avatar/?s=74&amp;d=monsterid&amp;r=g"/>
             <b class="fn">
              <a class="url" href="http://weibo.com/myaplysia" rel="external nofollow">
               i小雨生
              </a>
             </b>
             <span class="says">
              说道：
             </span>
            </div>
            <!-- .comment-author -->
            <div class="comment-metadata">
             <a href="http://cos.name/2013/03/lda-math-text-modeling/#comment-5736">
              <time datetime="2014-05-19T19:06:50+00:00">
               2014/05/19 19:06
              </time>
             </a>
            </div>
            <!-- .comment-metadata -->
           </footer>
           <!-- .comment-meta -->
           <div class="comment-content">
            <p>
             赞！
            </p>
           </div>
           <!-- .comment-content -->
           <div class="reply">
            <a aria-label="回复给i小雨生" class="comment-reply-link" href="http://cos.name/2013/03/lda-math-text-modeling/?replytocom=5736#respond" onclick='return addComment.moveForm( "div-comment-5736", "5736", "respond", "7381" )' rel="nofollow">
             回复
            </a>
           </div>
          </article>
          <!-- .comment-body -->
         </li>
         <!-- #comment-## -->
         <li class="comment even thread-even depth-1" id="comment-5932">
          <article class="comment-body" id="div-comment-5932">
           <footer class="comment-meta">
            <div class="comment-author vcard">
             <img src="http://sdn.geekzu.org/avatar/?s=74&amp;d=monsterid&amp;r=g"/>
             <b class="fn">
              <a class="url" href="http://weibo.com/2230462974" rel="external nofollow">
               zhongbinEDEN
              </a>
             </b>
             <span class="says">
              说道：
             </span>
            </div>
            <!-- .comment-author -->
            <div class="comment-metadata">
             <a href="http://cos.name/2013/03/lda-math-text-modeling/#comment-5932">
              <time datetime="2014-06-24T09:57:57+00:00">
               2014/06/24 09:57
              </time>
             </a>
            </div>
            <!-- .comment-metadata -->
           </footer>
           <!-- .comment-meta -->
           <div class="comment-content">
            <p>
             写的很好！
            </p>
           </div>
           <!-- .comment-content -->
           <div class="reply">
            <a aria-label="回复给zhongbinEDEN" class="comment-reply-link" href="http://cos.name/2013/03/lda-math-text-modeling/?replytocom=5932#respond" onclick='return addComment.moveForm( "div-comment-5932", "5932", "respond", "7381" )' rel="nofollow">
             回复
            </a>
           </div>
          </article>
          <!-- .comment-body -->
         </li>
         <!-- #comment-## -->
        </ol>
        <!-- .comment-list -->
        <div class="comment-respond" id="respond">
         <h3 class="comment-reply-title" id="reply-title">
          发表评论
          <small>
           <a href="http://cos.name/2013/03/lda-math-text-modeling/#respond" id="cancel-comment-reply-link" rel="nofollow" style="display:none;">
            取消回复
           </a>
          </small>
         </h3>
         <form action="http://cos.name/wp-comments-post.php" class="comment-form" id="commentform" method="post" novalidate="">
          <p class="comment-notes">
           <span id="email-notes">
            电子邮件地址不会被公开。
           </span>
           必填项已用
           <span class="required">
            *
           </span>
           标注
          </p>
          <p class="comment-form-comment">
           <label for="comment">
            评论
           </label>
           <textarea aria-required="true" cols="45" id="comment" maxlength="65525" name="comment" required="required" rows="8">
           </textarea>
          </p>
          <p class="comment-form-author">
           <label for="author">
            姓名
            <span class="required">
             *
            </span>
           </label>
          </p>
          <p class="comment-form-email">
           <label for="email">
            电子邮件
            <span class="required">
             *
            </span>
           </label>
          </p>
          <p class="comment-form-url">
           <label for="url">
            站点
           </label>
          </p>
          <p class="form-submit">
          </p>
          <p style="display: none;">
          </p>
          <p style="display: none;">
          </p>
         </form>
        </div>
        <!-- #respond -->
       </div>
       <!-- #comments -->
      </div>
      <!-- #content -->
     </div>
     <!-- #primary -->
     <div class="sidebar-container" id="tertiary" role="complementary">
      <div class="sidebar-inner">
       <div class="widget-area">
        <aside class="widget widget_text" id="text-3">
         <h3 class="widget-title">
          关注统计之都
         </h3>
         <div class="textwidget">
          <ul>
           <li>
            新浪微博
            <a href="http://weibo.com/cosname">
             @统计之都
            </a>
           </li>
           <li>
            人人网
            <a href="http://renren.com/cosname">
             @统计之都
            </a>
           </li>
           <li>
            Twitter
            <a href="http://twitter.com/cos_name">
             @cos_name
            </a>
           </li>
          </ul>
         </div>
        </aside>
        <aside class="widget widget_text" id="text-6">
         <h3 class="widget-title">
          微信公众平台
         </h3>
         <div class="textwidget">
          <img src="http://cos.name/wp-content/uploads/2013/04/qrcode-8cm.jpg"/>
          <p style="font-size:12px;margin-left:15px">
           微信号 CapStat
          </p>
          <p>
           我们将第一时间向您推送主站和论坛的精彩内容，以及统计之都的线下活动、竞赛、培训和会议信息。
          </p>
         </div>
        </aside>
        <aside class="widget widget_text" id="text-8">
         <h3 class="widget-title">
          站内导航
         </h3>
         <div class="textwidget">
          <ul>
           <li class="page_item">
            <a href="http://cos.name/cn/">
             中文论坛
            </a>
           </li>
           <li class="page_item">
            <a href="http://cos.name/videos/">
             视频
            </a>
           </li>
           <li class="page_item">
            <a href="http://cos.name/salon/">
             统计沙龙
            </a>
           </li>
           <li class="page_item">
            <a href="http://cos.name/books/">
             图书出版
            </a>
           </li>
           <li class="page_item">
            <a href="http://cos.name/training/">
             教育培训
            </a>
           </li>
           <li class="page_item">
            <a href="http://cos.name/about/">
             关于我们
            </a>
           </li>
           <li class="page_item">
            <a href="http://cos.name/donate/">
             捐赠
            </a>
           </li>
           <li class="page_item">
            <a href="http://cos.name/chinar/">
             R语言会议
            </a>
           </li>
          </ul>
         </div>
        </aside>
        <aside class="widget widget_links" id="linkcat-2">
         <h3 class="widget-title">
          友情链接
         </h3>
         <ul class="xoxo blogroll">
          <li>
           <a href="http://stat.ruc.edu.cn" target="_blank" title="中国人民大学统计学院网站">
            中国人民大学统计学院
           </a>
          </li>
          <li>
           <a href="http://rucdmc.net">
            中国人民大学数据挖掘中心
           </a>
          </li>
          <li>
           <a href="http://birc.gsm.pku.edu.cn/" target="_blank">
            北京大学商务智能研究中心
           </a>
          </li>
          <li>
           <a href="http://sam.cufe.edu.cn/" target="_blank" title="中央财经大学统计与数学学院网站">
            中央财经大学统计与数学学院
           </a>
          </li>
          <li>
           <a href="http://tjx.cueb.edu.cn/" target="_blank" title="首都经济贸易大学统计学院网站">
            首经贸统计学院
           </a>
          </li>
          <li>
           <a href="http://www.shookr.com/">
            数客网大数据社区
           </a>
          </li>
          <li>
           <a href="http://www.xueqing.tv/" target="_blank" title="数据科学在线学习平台">
            雪晴数据网
           </a>
          </li>
          <li>
           <a href="http://iera.name/" target="_blank" title="IERA是一个旨在普及、传播和增进工业工程知识的非营利性网站">
            IERA（直通IE）
           </a>
          </li>
         </ul>
        </aside>
        <aside class="widget widget_categories" id="categories-2">
         <h3 class="widget-title">
          全部分类
         </h3>
         <label class="screen-reader-text" for="cat">
          全部分类
         </label>
         <select class="postform" id="cat" name="cat">
          <option value="-1">
           选择分类目录
          </option>
          <option class="level-0" value="925">
           cos访谈  (4)
          </option>
          <option class="level-0" value="659">
           图书出版  (5)
          </option>
          <option class="level-0" value="379">
           数学方法  (14)
          </option>
          <option class="level-1" value="381">
           分析与代数  (1)
          </option>
          <option class="level-1" value="380">
           概率论  (9)
          </option>
          <option class="level-1" value="382">
           随机过程  (5)
          </option>
          <option class="level-0" value="210">
           数据分析  (81)
          </option>
          <option class="level-1" value="203">
           多元统计  (3)
          </option>
          <option class="level-1" value="42">
           数据挖掘与机器学习  (42)
          </option>
          <option class="level-1" value="36">
           生物与医学统计  (17)
          </option>
          <option class="level-1" value="35">
           计量经济学  (4)
          </option>
          <option class="level-1" value="296">
           金融统计  (3)
          </option>
          <option class="level-1" value="303">
           风险精算  (7)
          </option>
          <option class="level-0" value="177">
           模型专题  (15)
          </option>
          <option class="level-1" value="38">
           回归分析  (10)
          </option>
          <option class="level-1" value="41">
           时间序列  (2)
          </option>
          <option class="level-0" value="784">
           每周精选  (24)
          </option>
          <option class="level-1" value="183">
           可视化  (9)
          </option>
          <option class="level-0" value="967">
           沙龙纪要  (3)
          </option>
          <option class="level-0" value="18">
           经典理论  (46)
          </option>
          <option class="level-1" value="37">
           抽样调查  (3)
          </option>
          <option class="level-1" value="4">
           统计推断  (26)
          </option>
          <option class="level-1" value="236">
           试验设计  (7)
          </option>
          <option class="level-1" value="39">
           非参数统计  (3)
          </option>
          <option class="level-0" value="1">
           统计之都  (279)
          </option>
          <option class="level-1" value="884">
           中国R会议  (2)
          </option>
          <option class="level-1" value="885">
           中国R语言会议  (5)
          </option>
          <option class="level-1" value="446">
           出国留学  (3)
          </option>
          <option class="level-1" value="179">
           推荐文章  (90)
          </option>
          <option class="level-1" value="3">
           新闻通知  (75)
          </option>
          <option class="level-1" value="263">
           统计刊物  (10)
          </option>
          <option class="level-1" value="174">
           网站导读  (40)
          </option>
          <option class="level-1" value="204">
           职业事业  (51)
          </option>
          <option class="level-1" value="213">
           高校课堂  (9)
          </option>
          <option class="level-0" value="178">
           统计计算  (28)
          </option>
          <option class="level-1" value="40">
           优化与模拟  (15)
          </option>
          <option class="level-1" value="43">
           贝叶斯方法  (6)
          </option>
          <option class="level-0" value="378">
           软件应用  (116)
          </option>
          <option class="level-1" value="44">
           统计图形  (36)
          </option>
          <option class="level-1" value="110">
           统计软件  (83)
          </option>
         </select>
        </aside>
        <aside class="widget widget_recent_comments" id="recent-comments-2">
         <h3 class="widget-title">
          最新评论
         </h3>
         <ul id="recentcomments">
          <li class="recentcomments">
           <span class="comment-author-link">
            fineboom
           </span>
           发表在《
           <a href="http://cos.name/2016/06/use-shiny-fleetly-set-up-visual-prototype-system/#comment-7317">
            利用shiny包快速搭建可视化原型系统
           </a>
           》
          </li>
          <li class="recentcomments">
           <span class="comment-author-link">
            胡家新
           </span>
           发表在《
           <a href="http://cos.name/2016/06/r%e8%af%ad%e5%8d%83%e5%af%bb%e7%ac%ac%e4%b8%89%e6%9c%9f%ef%bc%9a%e5%bc%a0%e6%97%a0%e5%bf%8c%e7%a9%b6%e7%ab%9f%e7%88%b1%e8%b0%81%ef%bc%9f/#comment-7316">
            R语千寻第三期：张无忌究竟爱谁？
           </a>
           》
          </li>
          <li class="recentcomments">
           <span class="comment-author-link">
            <a class="url" href="http://www.zijiacha.com/category.php?id=6" rel="external nofollow">
             南糯山普洱茶
            </a>
           </span>
           发表在《
           <a href="http://cos.name/2016/06/r%e8%af%ad%e5%8d%83%e5%af%bb%e7%ac%ac%e4%b8%89%e6%9c%9f%ef%bc%9a%e5%bc%a0%e6%97%a0%e5%bf%8c%e7%a9%b6%e7%ab%9f%e7%88%b1%e8%b0%81%ef%bc%9f/#comment-7315">
            R语千寻第三期：张无忌究竟爱谁？
           </a>
           》
          </li>
          <li class="recentcomments">
           <span class="comment-author-link">
            J
           </span>
           发表在《
           <a href="http://cos.name/2016/05/value-of-the-reputation-from-the-data/#comment-7314">
            数据告诉你：高信誉的卖家应该收高价，还是收低价？
           </a>
           》
          </li>
          <li class="recentcomments">
           <span class="comment-author-link">
            <a class="url" href="http://gg" rel="external nofollow">
             Hilda
            </a>
           </span>
           发表在《
           <a href="http://cos.name/2013/01/drawing-map-in-r-era/#comment-7311">
            R时代，你要怎样画地图？
           </a>
           》
          </li>
         </ul>
        </aside>
        <aside class="widget widget_rss" id="rss-282869971">
         <h3 class="widget-title">
          <a class="rsswidget" href="http://cos.name/cn/topics/feed/">
           <img src="http://cos.name/wp-includes/images/rss.png"/>
          </a>
          <a class="rsswidget" href="http://cos.name/cn/topics/feed/">
           中文论坛新帖
          </a>
         </h3>
         <ul>
          <li>
           <a class="rsswidget" href="http://cos.name/cn/topic/417372/">
            处理时间数据和产生时间序列的问题
           </a>
          </li>
          <li>
           <a class="rsswidget" href="http://cos.name/cn/topic/6790/">
            《统计陷阱》下载 （How to lie with statistics）
           </a>
          </li>
          <li>
           <a class="rsswidget" href="http://cos.name/cn/topic/818/">
            统计学的世界（第五版）
           </a>
          </li>
          <li>
           <a class="rsswidget" href="http://cos.name/cn/topic/16574/">
            class(x) 返回值值是AsIs,AsIs代表什么，有什么用处？
           </a>
          </li>
          <li>
           <a class="rsswidget" href="http://cos.name/cn/topic/417366/">
            如何用R绘制一个分类算法的决策规则
           </a>
          </li>
         </ul>
        </aside>
        <aside class="widget widget_text" id="text-2">
         <h3 class="widget-title">
          登录/RSS
         </h3>
         <div class="textwidget">
          <ul>
           <li>
            <a href="http://cos.name/wp-admin/">
             登录
            </a>
           </li>
           <li>
            <a href="http://cos.name/feed/" title="使用 RSS 2.0 同步站点内容">
             文章
             <abbr title="Really Simple Syndication">
              RSS
             </abbr>
            </a>
           </li>
           <li>
            <a href="http://cos.name/comments/feed/" title="RSS 上的最近评论">
             评论
             <abbr title="Really Simple Syndication">
              RSS
             </abbr>
            </a>
           </li>
          </ul>
         </div>
        </aside>
       </div>
       <!-- .widget-area -->
      </div>
      <!-- .sidebar-inner -->
     </div>
     <!-- #tertiary -->
    </div>
    <!-- #main -->
    <footer class="site-footer" id="colophon" role="contentinfo">
     <div class="site-info">
      版权所有 © 2014 统计之都 | 由
      <a href="http://wordpress.org/">
       WordPress
      </a>
      构建 | 主题修改自
      <a href="http://wordpress.org/themes/twentythirteen">
       Twenty Thirteen
      </a>
     </div>
     <!-- .site-info -->
    </footer>
    <!-- #colophon -->
   </div>
   <!-- #page -->
   <p style="margin:0;padding:0;height:1px;overflow:hidden;">
    <a href="http://www.wumii.com/widget/relatedItems" style="border:0;">
     <img src="http://static.wumii.cn/images/pixel.png"/>
    </a>
   </p>
  </div>
 </body>
</html>